Przeczytaj tabelę w dokumencie

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Przeczytaj tabelę w dokumencie

Ten przykład kodu pokazuje, jak używać IronTesseract silnika OCR do wyodrębniania tekstu i danych tabelarycznych z dokumentu PDF.

Tworzone jest wystąpienie silnika OCR IronTesseract.
Zostaje zainicjalizowany obiekt OcrInput, a plik PDF ("table.pdf") jest ładowany za pomocą metody LoadPdf.
Silnik OCR przetwarza dokument za pomocą metody ReadDocumentAdvanced, która zwraca bardziej szczegółowy obiekt OcrResult.
Pierwsza tabela znaleziona w dokumencie jest dostępna poprzez result.Tables.First(), a informacje o komórkach tej tabeli są wyodrębniane za pomocą CellInfos.
Lista danych komórek (cellList) zawiera teraz komórki tabeli, w tym zawartość tekstową i inne szczegóły (np. pozycja komórki, rozmiar).
Ta metoda jest przydatna do wyodrębniania danych strukturalnych, takich jak tabele z plików PDF, co pozwala na programowe uzyskanie dostępu do tekstu w każdej komórce tabeli i jego przetwarzanie.